现有的二进制神经网络(BNN)主要在具有二进制功能的局部卷积上运作。但是,这种简单的位操作缺乏建模上下文依赖性的能力,这对于学习视觉模型中的歧视性深度表示至关重要。在这项工作中,我们通过介绍二进制神经模块的新设计来解决这个问题,这使BNN能够学习有效的上下文依赖性。首先,我们建议二进制多层感知器(MLP)块作为二进制卷积块的替代方案,以直接建模上下文依赖性。短距离和远程特征依赖性均由二进制MLP建模,其中前者提供局部电感偏置,后者在二元卷积中有限的接受场有限。其次,为了提高具有上下文依赖性的二进制模型的鲁棒性,我们计算上下文动态嵌入,以确定一般二进制卷积块中的二进化阈值。用我们的二进制MLP块和改进的二进制卷积,我们用明确的上下文依赖性建模构建了BNN,称为BCDNET。在标准Imagenet-1K分类基准上,BCDNET可实现72.3%的TOP-1准确性,并且优于领先的二进制方法的差距很大。尤其是,提出的BCDNET超过了最新的ReactNet-A,具有相似操作的2.9%TOP-1准确性。我们的代码可从https://github.com/sense-gvt/bcdn获得
translated by 谷歌翻译
随着视频数量的越来越多,对技术的需求很大,可以帮助人们迅速导航到他们感兴趣的视频片段。但是,当前的视频理解主要理解主要是视频内容摘要,而几乎没有努力,而对探索视频的结构。受文本轮廓生成的启发,我们介绍了一项新颖的视频理解任务,即视频大纲生成(VOG)。该任务定义为包含两个子任务:(1)首先根据内容结构对视频进行分割,然后(2)为每个段生成一个标题。要学习和评估VOG,我们注释了一个10K+数据集,称为Duvog。具体来说,我们使用OCR工具来识别视频的字幕。然后,要求注释者将字幕分为章节,并将每个章节分为标题。在视频中,突出显示的文本往往是标题,因为它更有可能引起人们的注意。因此,我们提出了一个视觉字幕功能增强的视频大纲生成模型(VSENET),该模型将文本字幕及其视觉字体大小和位置作为输入。我们将VOG任务视为一个序列标记问题,该问题提取了跨标题的位置,然后将其重写以形成最终大纲。此外,基于视频概述和文本概述之间的相似性,我们使用大量文章带有章节标题来预先我们的模型。 Duvog上的实验表明,我们的模型在很大程度上胜过其他基线方法,对于视频分割水平达到了77.1的F1得分,对于标题生成级别的Rouge-L_F0.5的85.0。
translated by 谷歌翻译
由于成本,采集时间或剂量的限制,稀疏视图CT重建在广泛的应用中是重要的。然而,传统的直接重建方法如滤波后投影(FBP)导致子奈奎斯特政权中的低质量重建。相比之下,深度神经网络(DNN)可以从稀疏和嘈杂的数据产生高质量的重建,例如,通过FBP重建的后处理,作为基于模型的迭代重建(MBIR),尽管计算成本更高。在本文中,我们介绍了一种称为反复间隔的DNN方法,称为反复化堆叠的背部投影(RSBP),其使用顺序获取的单个视图的反投影作为反复卷积LSTM网络的输入。 SBP结构维护SinoGram中的所有信息,而经常性处理利用相邻视图之间的相关性并在每个新视图后产生更新的重建。我们在模拟和实际数据上培训我们的网络上的网络和测试,并证明RSBP优于FBP图像和基本MBIR的DNN后处理,其计算成本低于MBIR。
translated by 谷歌翻译
深度学习模型已广泛用于监控视频中的异常检测。典型模型配备了重建普通视频的能力,并评估异常视频的重建错误以指示异常的程度。然而,现有方法遭受了两个缺点。首先,它们只能独立地编码每个身份的运动,而不考虑身份之间的相互作用,这也可以指示异常。其次,他们利用了结构在不同场景下固定的粘合模型,这种配置禁止了对场景的理解。在本文中,我们提出了一个分层时空图卷积神经网络(HSTGCNN)来解决这些问题,HSTGCNN由对应于不同级别的图形表示的多个分支组成。高级图形表示编码人们的轨迹以及多个身份之间的交互,而低级图表表示编码每个人的本地身体姿势。此外,我们建议加权组合在不同场景中更好的多个分支。以这种方式实现了对单级图形表示的改进。实现了对场景的理解并提供异常检测。在低分辨率视频中为在低分辨率视频中编码低分辨率视频中的人员的移动速度和方向编码高级别的图表表示,而在高分辨率视频中将更高的权重分配更高的权重。实验结果表明,建议的HSTGCNN在四个基准数据集(UCSD Spistrian,Shanghaitech,Cuhk Aveance和IITB-Whent)上的当前最先进的模型显着优于最新的最先进模型。
translated by 谷歌翻译
最近的2D-3D人类姿势估计工作倾向于利用人体骨架的拓扑形成的图形结构。但是,我们认为这种骨架拓扑太稀疏,无法反映身体结构并遭受严重的2D-3D模糊问题。为了克服这些弱点,我们提出了一种新颖的图表卷积网络架构,层次图形网络(HGN)。它基于我们的多尺度图结构建筑策略产生的密度图形拓扑,从而提供更精细的几何信息。所提出的架构包含三个并行组织的稀疏微小表示子网,其中通过新颖的特征融合策略处理多尺度图形结构特征,并通过新颖的特征融合策略进行交换信息,导致丰富的分层表示。我们还介绍了3D粗网格约束,以进一步提高与细节相关的特征学习。广泛的实验表明,我们的HGN通过减少的网络参数实现了最先进的性能
translated by 谷歌翻译
基于光谱的图形神经网络(SGNNS)在图表表示学习中一直吸引了不断的关注。然而,现有的SGNN是限于实现具有刚性变换的曲线滤波器(例如,曲线图傅立叶或预定义的曲线波小波变换)的限制,并且不能适应驻留在手中的图形和任务上的信号。在本文中,我们提出了一种新颖的图形神经网络,实现了具有自适应图小波的曲线图滤波器。具体地,自适应图表小波通过神经网络参数化提升结构学习,其中开发了基于结构感知的提升操作(即,预测和更新操作)以共同考虑图形结构和节点特征。我们建议基于扩散小波提升以缓解通过分区非二分类图引起的结构信息损失。通过设计,得到了所得小波变换的局部和稀疏性以及提升结构的可扩展性。我们进一步通过在学习的小波中学习稀疏图表表示来引导软阈值滤波操作,从而产生局部,高效和可伸缩的基于小波的图形滤波器。为了确保学习的图形表示不变于节点排列,在网络的输入中采用层以根据其本地拓扑信息重新排序节点。我们在基准引用和生物信息图形数据集中评估节点级和图形级别表示学习任务的所提出的网络。大量实验在准确性,效率和可扩展性方面展示了在现有的SGNN上的所提出的网络的优越性。
translated by 谷歌翻译
消息传递已作为设计图形神经网络(GNN)的有效工具的发展。但是,消息传递的大多数现有方法简单地简单或平均所有相邻的功能更新节点表示。它们受到两个问题的限制,即(i)缺乏可解释性来识别对GNN的预测重要的节点特征,以及(ii)特征过度混合,导致捕获长期依赖和无能为力的过度平滑问题在异质或低同质的下方处理图。在本文中,我们提出了一个节点级胶囊图神经网络(NCGNN),以通过改进的消息传递方案来解决这些问题。具体而言,NCGNN表示节点为节点级胶囊组,其中每个胶囊都提取其相应节点的独特特征。对于每个节点级胶囊,开发了一个新颖的动态路由过程,以适应适当的胶囊,以从设计的图形滤波器确定的子图中聚集。 NCGNN聚集仅有利的胶囊并限制无关的消息,以避免交互节点的过度混合特征。因此,它可以缓解过度平滑的问题,并通过同粒或异质的图表学习有效的节点表示。此外,我们提出的消息传递方案本质上是可解释的,并免于复杂的事后解释,因为图形过滤器和动态路由过程确定了节点特征的子集,这对于从提取的子分类中的模型预测最为重要。关于合成和现实图形的广泛实验表明,NCGNN可以很好地解决过度光滑的问题,并为半监视的节点分类产生更好的节点表示。它的表现优于同质和异质的艺术状态。
translated by 谷歌翻译
通过开发基于生成的自我监督学习(SSL)方法,例如Beit和Mae,如何通过掩盖输入图像的随机补丁并重建缺失信息来学习良好的表示形式。但是,Beit和Peco需要一个“预先陈述”阶段,以生成用于掩盖补丁代表的离散代码手册。 MAE不需要预训练的代码簿流程,但是将像素设置为重建目标可能会引入前训练和下游任务之间的优化差距,即良好的重建质量可能并不总是会导致模型的高描述能力。考虑到上述问题,在本文中,我们提出了一个简单的自鉴定的蒙面自动编码器网络,即SDAE。 SDAE由一个使用编码器解码器结构的学生分支组成,以重建缺失的信息,并制作一个师范分支,生产蒙版代币的潜在表示。我们还分析了如何从信息瓶颈的角度来为教师分支机构建立潜在代表性的好看法。之后,我们提出了一种多重掩蔽策略,以提供多个掩盖视图,并具有平衡的信息以提高性能,这也可以降低计算复杂性。我们的方法很好地概括了:只有300个时期预训练,香草vit-base模型在Imagenet-1K分类上达到了84.1%的微调精度,48.6 MIOU在ADE20K细分方面和48.9 coco检测中的MAP,它超过了其他方法,从而超过其他方法。通过相当大的边距。代码可从https://github.com/abrahamyabo/sdae获得。
translated by 谷歌翻译
每时每刻都生产出许多不同质量的物品,因此将这些数据筛选为质量文章并将其投入到社交媒体上是一项非常紧迫的任务。值得注意的是,高质量的文章具有许多特征,例如相关性,文本质量,直接,多面,背景,新颖性和情感。因此,纯粹使用文章的内容来识别其质量是不够的。因此,我们计划使用外部知识互动来完善性能,并根据百度百科全书提出知识图增强文章质量标识数据集(KGEA)。我们通过7个维度量化了这些文章,并使用文章和百度百科全书之间实体的同时出现,以构建每篇文章的知识图。我们还比较了一些文本分类基线,发现外部知识可以将文章引导到与图神经网络更具竞争力的分类。
translated by 谷歌翻译
心电图(ECG)信号的学习表示形式可以作为不同基于机器学习的ECG任务的基本步骤。为了提取可以适应各种下游任务的一般心电图表示,学习过程需要基于一般与ECG相关的任务,该任务可以通过自我监督的学习(SSL)来实现。但是,现有的SSL方法要么无法提供令人满意的ECG表示形式,要么需要太多努力来构建学习数据。在本文中,我们提出了T-S反向检测,这是一种简单而有效的自我监督的方法来学习ECG表示。受ECG信号的时间和空间特性的启发,我们水平地(时间反向),垂直(空间反向)以及水平和垂直(时间空间反向)对原始信号进行水平翻转。然后,通过对包括原始信号在内的四种类型的信号进行分类来完成学习。为了验证所提出方法的有效性,我们执行下游任务以检测房颤(AF),这是最常见的ECG任务之一。结果表明,通过我们的方法学到的心电图表示实现了显着的性能。此外,在探索了表示空间并研究了显着的心电图位置之后,我们得出结论,时间反向比空间反向更有效地学习ECG表示。
translated by 谷歌翻译